Comparing two analyzers of Japanese corpora for helping linguists: MeCab and Sagace (Comparaison de deux outils d'analyse de corpus japonais pour l'aide au linguiste, Sagace et Mecab) [in French]
نویسنده
چکیده
Our purpose is to compare two tools used to help linguists analyze large corpora of raw Japanese text. We measure their precision while counting strings of morphs. Each tool is representative of a specific approach. The first tool is based on the statistical morphological analyzer MeCab. It first tokenizes and POS tags the whole sentence before searching and counting strings. The second tool, Sagace, searches and counts within the text as it is. In accordance with our assumptions, Sagace performed slightly worse overall but the difference is not as marked as expected. Taking into account the needs of linguists, Sagace is nevertheless useful for many tasks. Mots-clés : Japonais, Corpus, Analyseurs morphologique, MeCab, Sagace
منابع مشابه
Ontologies pour l'aide à l'exploration d'une collection de documents
Dans cet article nous présentons un système à base d'ontologies pour l'aide à une activité de recherche, d'analyse et d'exploration de corpus documentaires relatifs à un domaine scientifique. Les ontologies utilisées visent à représenter un domaine à la fois à travers le vocabulaire de ce domaine, mais également au travers de l'ensemble des méta-données qui peuvent être utiles dans des activité...
متن کاملDeux approches pour la comparaison de relations spatiales floues. Transport optimal et morphologie mathématique
RÉSUMÉ. Les relations spatiales sont au cœur de beaucoup de méthodes d’interprétation de scènes à l’aide d’informations structurelles. Lorsque ces scènes sont analysées par comparaison avec un modèle, ou lorsqu’elles sont dynamiques et que l’on s’intéresse à leur évolution, il faut alors développer des outils pour comparer des relations spatiales, souvent exprimées ou connues de manière impréci...
متن کاملOutils d'analyse de la dynamique des écritures médiévales. Pour l'aide à l'expertise paléographique
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملUn analyseur Syntaxique interactif pour la Communication homme-Machine
Nous envisageons la r&lisation d'un syst~me de communication Homme-Machine en langues naturelles, qui pourrait 8tre utilis6 par exemple pour l'dtude de la langue elle-mSme ou pour la rdalisation d'un syst~me questions-r~ponses sttr un sujet d~termind (consultation d'tme banque de donn~es et r6ponses approprides). Avant d'en arriver ~t la rdalisation du module s~mantique, il faut se d~finir un m...
متن کاملSymbolic and statistical learning for chunking : comparison and combinations (Apprentissage symbolique et statistique pour le chunking: comparaison et combinaisons) [in French]
RÉSUMÉ Nous décrivons dans cet article l’utilisation d’algorithmes d’inférence grammaticale pour la tâche de chunking, pour ensuite les comparer et les combiner avec des CRF (Conditional Random Fields), à l’efficacité éprouvée pour cette tâche. Notre corpus est extrait du French TreeBank. Nous proposons et évaluons deux manières différentes de combiner modèle symbolique et modèle statistique ap...
متن کامل